smq

웹에는 수많은 데이터들이 있습니다. 그 중에 해커뉴스 라던지, 위키피디아등의 사이트는 현재의 데이터들을 얻을 수는 쉽게 되어 있지만 예를 들어 2006년 가장 해커뉴스에서 가장 많은 화제가 되었던 기사는 무엇일까? 등의 문제에 대답하기는 쉽지 않습니다.

여기 방금 나열한 종류의 고민을 해결 해 줄 수 있는 방법을 모아 놓은 프로젝트가 있습니다.

2016/04/12 Editor’s choice

antontarasenko/smq
_smq - A collection of SQL queries to social media datasets._github.com

일단 답변 부터 확인해 보죠

2006년 최고라고 해봤다 커멘트가 15개 달린 기사였군요.

어떻게 이런 일이 가능할까요?


Google Big Query

Google BigQuery는 대용량 Dataset(최대 몇 십억 개의 행)를 대화식으로 분석하는 데 사용할 수 있는 웹 서비스입니다. 확장 가능하고 사용이 간편한 BigQuery를 통해 개발자와 기업은 필요할 때 강력한 데이터 분석을 수행할 수 있습니다.

What is BigQuery?
_Querying massive datasets can be time consuming and expensive without the right hardware and infrastructure. Google…_developers.google.com

구글이 빅 쿼리 서비스를 한지 꽤 되었는데요. 많은 종류들의 데이타 들이 들어가 있습니다.좋은 예를 들면 지금 제가 분석하고 매일 올리는 깃헙을 빅쿼리 서비스에 올려 깃헙의 전체적인 트렌드 흐름을 파악할 수 있는 깃헙 아카이브가 좋은 예가 될 것입니다.

GitHub Archive
_GitHub provides 20+ event types, which range from new commits and fork events, to opening new tickets, commenting, and…_www.githubarchive.org

조만간, 주간 깃헙(www.devpools.kr) 에서 다뤄보도록 하겠습니다.

구슬이 서말이라도 꿰어야 절대반지

뭐 어쨌든 이렇게 좋은 빅쿼리를 알고 있어도 어떻게 사용하는지 모르면 아무 도움이 되지 않을테죠.

이 프로젝트는 이 Big Query를 어떻게 쓰면 좋은 서비스를 만들 수 있을지에 대한 정말 좋은 BP가 될 것 같습니다.

예제

해커뉴스의 예를 들었었죠? 아까 그 결과는 어떻게 얻었을지 코드로 알아보도록 하겠습니다.

웹상의 기술적인 분석글을 쓰려면 구글느님의 빅쿼리 서비스를 잘 이용해야겠죠.

By Keen Dev on April 12, 2016.

Exported from Medium on May 31, 2017.